自动语音识别(ASR)系统已变得无处不在。它们可以在各种形状因素中找到,在我们的日常生活中越来越重要。因此,确保这些系统公平地与人口的不同亚组是至关重要的。在本文中,我们介绍,AeChevox是评估ASR系统的公平性的自动化测试框架。 Aequevox模拟不同的环境,以评估ASR系统对不同群体的有效性。此外,我们还调查所选择的模拟是否可易于对人类易于理解。我们进一步提出了一种故障定位技术,能够识别对这些不同环境不稳健的单词。 Aequevox的两个组件都能够在没有地面真理数据的情况下运行。我们使用三个不同的商业ASR评估了来自四个不同数据集的equevox。我们的实验表明,非母语,女性和尼日利亚语扬声器分别产生109%,528.5%和156.9%,平均分别比母语,男性和英国米德兰斯扬声器更多。我们的用户学习还揭示了82.9%的模拟(通过语音转换采用)的可理解性评级高于七(十分之一),评级最低为6.78。这进一步验证了AeChevox发现的公平违规行为。最后,我们展示了非强大的单词,如eApevox中体现的故障定位技术所预测的,显示出的错误,而不是所有ASR的预测强大的单词。
translated by 谷歌翻译
软件通常会产生偏置输出。特别地,已知基于机器学习(ML)软件在处理鉴别的输入时产生错误的预测。这种不公平的计划行为可能是由社会偏见引起的。在过去的几年里,亚马逊,微软和谷歌已经提供了产生不公平产出的软件服务,主要是由于社会偏见(例如性别或比赛)。在此类事件中,开发人员被绑定了进行公平测试的任务。公平性测试是挑战性的;开发人员任务是产生揭示和解释偏见的歧视性投入。我们提出了一种基于语法的公平测试方法(称为Astraea),它利用无与伦比的语法来产生歧视性投入,以揭示软件系统中的公平违规行为。 Astraea使用概率语法,Astraea还通过隔离观察到的软件偏差原因提供故障诊断。 Astraea的诊断有助于改善ML公平性。 Astraea是在18个软件系统上进行评估,提供三种主要的自然语言处理(NLP)服务。在我们的评估中,Astraea产生了公平违规,率达到约18%。 Astraea产生了超过573K的歧视性测试案例,并违反了102k的公平性。此外,Astraea通过模型再培训将软件公平提高〜76%。
translated by 谷歌翻译
Diabetic Retinopathy (DR) is considered one of the primary concerns due to its effect on vision loss among most people with diabetes globally. The severity of DR is mostly comprehended manually by ophthalmologists from fundus photography-based retina images. This paper deals with an automated understanding of the severity stages of DR. In the literature, researchers have focused on this automation using traditional machine learning-based algorithms and convolutional architectures. However, the past works hardly focused on essential parts of the retinal image to improve the model performance. In this paper, we adopt transformer-based learning models to capture the crucial features of retinal images to understand DR severity better. We work with ensembling image transformers, where we adopt four models, namely ViT (Vision Transformer), BEiT (Bidirectional Encoder representation for image Transformer), CaiT (Class-Attention in Image Transformers), and DeiT (Data efficient image Transformers), to infer the degree of DR severity from fundus photographs. For experiments, we used the publicly available APTOS-2019 blindness detection dataset, where the performances of the transformer-based models were quite encouraging.
translated by 谷歌翻译
Synthetic data offers the promise of cheap and bountiful training data for settings where lots of labeled real-world data for tasks is unavailable. However, models trained on synthetic data significantly underperform on real-world data. In this paper, we propose Proportional Amplitude Spectrum Training Augmentation (PASTA), a simple and effective augmentation strategy to improve out-of-the-box synthetic-to-real (syn-to-real) generalization performance. PASTA involves perturbing the amplitude spectrums of the synthetic images in the Fourier domain to generate augmented views. We design PASTA to perturb the amplitude spectrums in a structured manner such that high-frequency components are perturbed relatively more than the low-frequency ones. For the tasks of semantic segmentation (GTAV to Real), object detection (Sim10K to Real), and object recognition (VisDA-C Syn to Real), across a total of 5 syn-to-real shifts, we find that PASTA outperforms more complex state-of-the-art generalization methods while being complementary to the same.
translated by 谷歌翻译
关于文本到SQL语义解析的最新研究取决于解析器本身或基于简单的启发式方法来理解自然语言查询(NLQ)。合成SQL查询时,没有可用的NLQ的明确语义信息,从而导致不良的概括性能。此外,如果没有词汇级的细粒度查询理解,查询与数据库之间的链接只能依赖模糊的字符串匹配,这会导致实际应用中的次优性能。考虑到这一点,在本文中,我们提出了一个基于令牌级的细粒度查询理解的通用,模块化的神经语义解析框架。我们的框架由三个模块组成:命名实体识别器(NER),神经实体接头(NEL)和神经语义解析器(NSP)。通过共同建模查询和数据库,NER模型可以分析用户意图并确定查询中的实体。 NEL模型将类型的实体链接到数据库中的模式和单元格值。解析器模型利用可用的语义信息并链接结果并根据动态生成的语法合成树结构的SQL查询。新发布的语义解析数据集的Squall实验表明,我们可以在WikiableQuestions(WTQ)测试集上实现56.8%的执行精度,这使最先进的模型的表现优于2.7%。
translated by 谷歌翻译
在多机器人系统中,任务对单个机器人的适当分配是非常重要的组成部分。集中式基础架构的可用性可以保证任务的最佳分配。但是,在许多重要的情况下,例如搜索和救援,探索,灾难管理,战场等,以分散的方式将动态任务直接分配给机器人。机器人之间的有效交流在任何这样的分散环境中都起着至关重要的作用。现有的关于分布式多机器人任务分配(MRTA)的作品假设网络可用或使用幼稚的通信范例。相反,在大多数情况下,网络基础架构是不稳定的或不可用的,并且临时网络是唯一的度假胜地。在同步传输(ST)的无线通信协议(ST)的最新发展显示,比在临时网络(例如无线传感器网络(WSN)/物联网(IOT)应用程序中的传统异步传输协议(IOT)应用程序中比传统的基于异步传输的协议更有效。当前的工作是将ST用于MRTA的第一项工作。具体而言,我们提出了一种有效调整基于ST的多对多交互的算法,并将信息交换最小化以达成任务分配的共识。我们通过广泛的基于基于模拟的研究在不同的环境下进行了基于模拟的延迟和能源效率来展示拟议算法的功效。
translated by 谷歌翻译
旨在进行巴氏杀菌和量化特定现象的任何方法都必须包括使用强大的统计方法进行数据分析。考虑到这一点,这项研究的目的是介绍非参数非均匀数据框架中可能采用的统计方法,并检查其在自然语言处理和语言集群领域的应用。此外,本文讨论了语言数据挖掘和处理中非参数方法的许多用途。数据深度思想允许在任何维度上进行中心排序,从而导致新的非参数多元统计分析,该分析不需要任何分布假设。层次结构的概念用于历史语言分类和结构化,其目的是使用相同的前提将语言组织和聚集到亚家族中。在这方面,当前的研究提出了一种基于通过各种语言的单词类型结构产生的非参数方法的语言家族结构的新方法,然后使用MDS将其转换为笛卡尔框架。这种基于统计深度的架构允许使用基于数据深度的方法来实现强大的离群检测,这对于理解各种边界语言的分类非常有用,并允许对现有分类系统进行重新评估。其他基于深度的方法也适用于无监督和监督聚类等过程。因此,本文概述了可以在非参数框架中应用于非均匀语言分类系统的过程。
translated by 谷歌翻译
由于人口统计因素(例如年龄,性别,种族等)的影响,已经在自动化的面部识别系统中进行了广泛的研究。但是,\ textIt {数字修改}的人口统计学和面部属性对面部识别的影响相对较小。在这项工作中,我们研究了通过生成对抗网络(GAN)引起的属性操作的影响对面部识别性能。我们通过使用Attgan和Stgan有意修改13个属性,并评估它们对两种基于深度学习的面部验证方法,Arcface和VGGFACE的影响,在Celeba数据集上进行实验。我们的发现表明,涉及眼镜和性线索的数字变化的一些属性操纵可能会大大损害面部识别多达73%,需要进一步分析。
translated by 谷歌翻译
面部变体是通过战略性地结合对应于多个身份的两个或多个面部图像来创建的。目的是使变形图像与多个身份匹配。当前的变形攻击检测策略可以检测变形,但无法恢复创建它们的图像或身份。从变形的面部图像中推论单个面部图像的任务称为\ textit {demphing}。截图的现有工作假设与一个身份有关的参考图像的可用性,以恢复同伙的图像 - 即其他身份。在这项工作中,我们提出了一种新颖的截形方法,可以从单个变形的面部图像中同时恢复两种身份的图像,而无需参考图像或有关变形过程的先前信息。我们提出了一个生成的对抗网络,该网络可实现基于单个图像的启动,并具有出乎意料的高度视觉现实主义和与原始面部图像的生物识别相似性。我们证明了我们的方法在基于里程碑的形态和基于生成模型的形态上的性能,并具有令人鼓舞的结果。
translated by 谷歌翻译
我们提出了多语言数据集的Multiconer,用于命名实体识别,涵盖11种语言的3个域(Wiki句子,问题和搜索查询),以及多语言和代码混合子集。该数据集旨在代表NER中的当代挑战,包括低文字方案(简短和未添加的文本),句法复杂的实体(例如电影标题)和长尾实体分布。使用基于启发式的句子采样,模板提取和插槽以及机器翻译等技术,从公共资源中汇编了26M令牌数据集。我们在数据集上应用了两个NER模型:一个基线XLM-Roberta模型和一个最先进的Gemnet模型,该模型利用了Gazetteers。基线实现了中等的性能(Macro-F1 = 54%),突出了我们数据的难度。 Gemnet使用Gazetteers,显着改善(Macro-F1 =+30%的平均改善)。甚至对于大型预训练的语言模型,多功能人也会构成挑战,我们认为它可以帮助进一步研究建立强大的NER系统。 Multiconer可在https://registry.opendata.aws/multiconer/上公开获取,我们希望该资源将有助于推进NER各个方面的研究。
translated by 谷歌翻译